DAY18 機器學習專案實作-員工離職預測(下)

2021 iThome 鐵人賽

DAY 18

AI & Data

學資料科學的小孩不會變壞- 從入門到實戰全攻略系列第 18 篇

13th鐵人賽資料分析實作 aidea專案員工離職預測

Rick_Lyle

2021-09-18 16:12:41

3000 瀏覽

分享至

一、挑選模型

再將資料丟入模型前要先做好資料前處理，並將訓練資料的答案另外獨立出來，然後把訓練資料與你獨立出來的答案丟入模型做訓練，最後再把你的測試及資料丟入訓練好的模型，就可以得到一個預測檔案。然後將預測檔案用成主辦方給你的範例樣式，最後丟到網路上去看你的分數，如下圖。

1. 隨機森林

X=df_train.drop(["最高學歷","畢業學校類別","PerStatus"],axis=1)
y=df_train["PerStatus"]
X=X.fillna(-1)
df_test=df_test.fillna(-1)
#%%
df_feature_scores.reset_index(inplace=True, drop=True)
#%%
df_X=X["PerNo"]
for i in range(1,21):
    df_X=pd.concat([df_X,X[df_feature_scores["Feature"][i]]], axis=1)
#%%
data_test=df_test["PerNo"]
for i in range(1,21):
    data_test=pd.concat([data_test,df_test[df_feature_scores["Feature"][i]]],axis=1)

#%%丟入模型做預測
from sklearn.ensemble import RandomForestClassifier
rfc=RandomForestClassifier(n_estimators=100)
rfc_model=rfc.fit(df_X,y)
pred_test = rfc_model.predict(data_test)
#%%將預測出來的值照著主辦單位的形式做成提交檔
pred_test=pd.DataFrame(pred_test)
submit2=df_test["PerNo"]
submit2=pd.DataFrame(submit2)
submit2=pd.concat([submit2,pred_test],axis=1)
submit2.columns=["PerNo","PerStatus"]
#%%將提交檔案做儲存
submit2.to_csv("你要儲存的路徑",index=False)

2. XGboost

X=df_train.drop(["最高學歷","畢業學校類別","PerStatus"],axis=1)
y=df_train["PerStatus"]
X=X.fillna(-1)
df_test=df_test.fillna(-1)
#%%
df_feature_scores.reset_index(inplace=True, drop=True)
#%%
df_X=X["PerNo"]
for i in range(1,21):
    df_X=pd.concat([df_X,X[df_feature_scores["Feature"][i]]], axis=1)
#%%
data_test=df_test["PerNo"]
for i in range(1,21):
    data_test=pd.concat([data_test,df_test[df_feature_scores["Feature"][i]]],axis=1)

#%%丟入模型做預測
from xgboost import XGBClassifier
xgbc=XGBClassifier()
xgbc_model=xgbc.fit(df_X,y)
pred_test = xgbc_model.predict(data_test)
#%%將預測出來的值照著主辦單位的形式做成提交檔
pred_test=pd.DataFrame(pred_test)
submit2=df_test["PerNo"]
submit2=pd.DataFrame(submit2)
submit2=pd.concat([submit2,pred_test],axis=1)
submit2.columns=["PerNo","PerStatus"]
#%%將提交檔案做儲存
submit2.to_csv("你要儲存的路徑",index=False)

這次的模型握最後選用XGboost，因為我將XGboost與隨機森林丟入還沒篩選特徵的資料，發現前者更為準確，因此後面做評估我都以XGboost這個模型為基準。

二、評估

將資料上傳到網站上給主辦方評估成績吧

這次主辦方給我們的評估標準是F1 score，範圍介於0~1，當然越趨近於1越準確。

我做了很多嘗試，將資料分成使用onehot encoding跟未使用onehot encoding來整理給各位看

使用onehot encoding

未篩選特徵：0.2387755

使用卡方篩選特徵：0.1120689

用隨機森林篩選特徵：0.1969696
未使用onehot encoding

未篩選特徵：0.1611570

使用卡方篩選特徵：0.1262953

用隨機森林篩選特徵：0.1489971